NVIDIA Tegra 3(代号:Project Kal-El),是NVIDIA在2011MWC上展示的全世界第一款移动
四核处理器(4个Cortex-A9核心)。NVIDIA Tegra 3集成12个执行单元的GeForce GPU图形核心,支持3D立体,并支持2048x1536的超高清分辨率,CPU处理能力比上代Tegra 2提升了两倍,而GPU图形性能方面,图睿2理论性能是图睿3四分之三。基于40纳米工艺,功耗与Tegra 2相比略有降低。Tegra 3改为采用四核心A9,并将频率提升到1.5GHz,图形处理器流处理器规模扩大一半,性能提升三倍,并且补齐Tegra 2不支持Neon的短板,支持256bit的Neon指令集,有回放High Profile的1080P视频的能力。使得其性能相对竞争对手现有产品全面占优。
当然Tegra 3可怕的不仅仅是性能,NVIDIA还在Tegra 2/3中使用了x86领域常见的小核心策略,Tegra 3虽然集成四核心和更为强大的
GPU单元,但其芯片面积仅79mm2,远远小于现在Apple A5 双核的110mm2,更小的核心对于移动平台而言,意味着的不仅仅只是更低的成本和更高的产能,并且往往还意味着更好的功耗控制。在移动平台进行产品设计不能像在x86领域单纯的堆砌核心数和
流处理器数,而需要更为仔细的精打细算,这时
NVIDIA强大的设计能力带来的更佳的性能/核心面积比就显得十分重要了。
而竞争对手
德州仪器和三星,在2012年底A15架构之前则没有全新产品,而是仅仅提升现有产品的频率,NVIDIA的快速产品更新策略和小核心策略则可以使得其可以占有更多战略上的主动权。
NVIDIA Tegra3的研发代号为Kal-EL,所以下面大量图表会以这个名字出现。在第一代Tegra中,我们就知道
NVIDIA使用了一颗
ARM7处理器作为低负载核心搭配
Cortex-a8核心进行工作,而在包括待机、音乐播放等低负载工作中,各家处理器也有不同的方式。而Tegra3的vSMP让这个设计思路更进一步,“协核心”的出现是Tegra3的精髓所在。为了更好的控制能效,协核心同样采用
Cortex-A9架构,但工艺设计上专门为低功耗低主频优化,它最高工作频率500MHz。而其他四个主核心架构与协核心一致,这四个核心单核心工作最高主频为1.4GHz、多核心工作时主频最高为1.3GHz。协核心与一个或多个主核心不能同时工作,处理器通过高效的管理办法可完成多核心间高速切换,官方给出数据是切换时间小于2毫秒。这么设计达到的目标是,在低负荷时只有协核心最高500MHz主频工作,能效比会明显高于主核心工作状态下的数值。如果需要更高的性能,此时四个主核心才会按需进行切换工作。
为了保证Tegra3的高效率以及一个或多个主核心工作状态与协核心工作状态间无缝切换,在缓存、Android
系统优化方面Tegra3也有特别之处。正如上文所说,低功耗的协核心与一个或多个主核心是不可以共同工作的。在一般使用时,例如打开视频或打开游戏时,Tegra3一定会切换到主核心工作状态,此时协核心是完全停止工作的。但要实现无缝衔接切换,在缓存设计上,主核心和协核心共享1MB的
二级缓存,缓存间返回数据速度在纳秒级别。
在Android系统下,虽然系统可以允许多个核心在不同频率下运行,但系统假设每个核心的运算能力是完全一致的,它会依次来分配计划任务,而此时显然多核心工作是不够高效的。而NVIDIA表示,vSMP将一直保持被激活的核心工作在同步系统频率上,以此方式为Android
系统优化,从而达到更高的效率,NVIDIA还专门有关于
负载平衡功能的视频演示,大家可以在国内视频网站搜索Tegra3关键字看到相关视频。
NVIDIA官方还展示了多套数据来说明Tegra3在功耗和性能方面的优势,两个处理器同样是来自台积电TSMC的40nm工艺制造。我们看到多个项目中,Tegra3功耗优势明显。
对比的处理器包括Tegra3四核心工作在480MHz、TI的OMAP4系列处理器工作在1GHz、QC8660即Snapdragon MSM8660/8260工作在1.2GHz以及Tegra3工作于1GHz时的功耗和性能。我们看到,Tegra3四核心工作于较低频率时性能与目前TI和高通主流
双核处理器相当,但功耗却只有它们的35%左右。而Tegra3的四核心工作于1GHz时,功耗仍要比TI OMAP4和
MSM8660/8260低20%左右,性能却领先一倍。随后的多张图表,
NVIDIA是想向大家表明很简单的道理。达到目前主流性能,Tegra3只需要付出一半的功耗,而如果需要更高的性能,Tegra3可以提升近一倍,而功耗却比现在双核心主流产品低20%。
由于NVIDIA详细的功耗对比主要以这一款
Benchmark软件为主,而且并没有告知该软件的测试方法、测试项目,但如果不出意外,它仍具有很高的参考性,Tegra3即便不考虑协核心的存在,它在多核心的优化上也明显优于目前的主流双核心
ARM处理器。当然,这个测试中可能不包括3D图形单元部分的运算。
此次Tegra3的发布在图形性能方面同样有不少的相关展示,但对GeForce部分的加强则不是重点,在
Tegra2处理器中8个核心单元(4个Vertex Shader和4个Pixel Shader)被增加至12个,在功能上图形输出支持HDMI 1.4a规范,支持3D视频播放和输出,支持通过Tegra3 2D转3D功能。同时,
NVIDIA官方资料更多描述表示,目前的移动平台3D引擎可以很好的支持多核心处理器的工作,因此Tegra3的多核心会有相应的表现。从展示内容来看,我们看到更好的实时光影效果、
动态模糊效果、以及
物理引擎运算效果。但这些效果应该并不只是
GeForce或者Tegra3独有。